1
Thống kê như Các Biến Ngẫu nhiên: Phân bố Lấy mẫu
MATH003Lesson 4
00:00
Trong suy luận thống kê, chúng ta chuyển từ quan sát các điểm dữ liệu riêng lẻ sang phân tích một **thống kê**—một phép ánh xạ chức năng $Y = h(X_1, X_2, \dots, X_n)$ của một dãy mẫu. Vì mẫu cơ sở gồm các biến ngẫu nhiên, chính thống kê cũng là một biến ngẫu nhiên, và luật xác suất của nó được gọi là **phân bố lấy mẫu**.

Thống kê như một Phép Ánh xạ

Một thống kê được định nghĩa chính thức là một hàm số $h: \mathbb{R}^n \to \mathbb{R}$. Chúng ta xác định xác suất để thống kê rơi vào tập hợp $B$ bằng cách sử dụng ảnh ngược:

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

Cơ sở Độc lập và Phân phối Giống Nhau (I.I.D.)

Đối với một mẫu gồm các biến ngẫu nhiên độc lập và phân phối giống nhau (i.i.d.), xác suất đồng thời của một điểm mẫu cụ thể $(x_1, \dots, x_n)$ bằng tích của các xác suất biên: $p(x_1)p(x_2)\dots p(x_n)$. Tích này đóng vai trò là trọng số cho mỗi điểm khi tính toán xác suất tổng thể để thống kê nhận một giá trị cụ thể.

Ví dụ 4.1.1: Trung bình Nhân

Xét một quần thể rời rạc với $p_X(1) = 1/2$, $p_X(2) = 1/4$, và $p_X(3) = 1/4$. Chúng ta lấy mẫu kích thước $n=2$ ($X_1, X_2$) và định nghĩa thống kê của chúng ta là trung bình nhân: $Y_2 = (X_1 X_2)^{1/2}$.

Để tìm phân bố của $Y_2$, chúng ta liệt kê tất cả 9 cặp khả dĩ $(X_1, X_2)$, tính xác suất đồng thời của chúng và giá trị $Y_2$ tương ứng:

Cặp $(x_1, x_2)$Xác suất $P(x_1)P(x_2)$$Y = \sqrt{x_1 x_2}$
(1, 1)1/41,000
(1, 2), (2, 1)1/8 + 1/8 = 1/41,414
(1, 3), (3, 1)1/8 + 1/8 = 1/41,732
(2, 2)1/162,000
(2, 3), (3, 2)1/16 + 1/16 = 1/82,449
(3, 3)1/163,000

Phân bố Chính xác so với Phân bố Tiến tới

Trước khi chuyển sang các định lý giới hạn như Định lý Giới hạn Trung tâm (CLT), chúng ta phải nắm vững "phân bố chính xác". Điều này bao gồm việc tính toán hàm khối lượng xác suất hoặc mật độ xác suất cụ thể cho một thống kê khi $n$ nhỏ và hữu hạn. Khi dạng giải tích trở nên không thể giải được, chúng ta chuyển sang mô phỏng số học như **xấp xỉ Monte Carlo**.

📌 Nguyên tắc Cốt lõi
Phân bố lấy mẫu là phân bố của một biến ngẫu nhiên tương ứng với một hàm số của một dãy i.i.d. Nó là cầu nối giữa dữ liệu thô và suy luận khoa học.